前言:今天要講另一種資料處理的方法~如果內容有哪些錯誤的地方,請多多包涵~
正文開始-->
首先呢,R語言充滿了各種套件,今天要講的dplyr套件
只是其中一種。而此套鑑識R語言中一個名為tidyverse套件系統
中的其中一項。tidyverse套件系統的核心包括了:
ggplot2
:視覺化分析。purrr
:執行迴圈。tibble
:增強資料框架。dplyr
:資料處裡。tidyr
:精簡資料。stringr
:字串整理。readr
:資料輸入。forcats
:處理類別變數。【dplyr套件】
是一種資料處理器,相比前面的資料處理函數,dplyr() 套件中融入了許多概念與結構化查詢語言(Structured Query Language,SQL)相仿的函數,會搭配 %>%
運算子一起使用,使處理資料的效率變得更高。
【安裝載入】
關於安裝載入的語法就如前面套件篇所說的,輸入
install.packages("dplyr")
:安裝套件。library(dplyr)
:載入套件。【常用函數】
dplyr套件中所提供的常用函數如下
filter()
:選要分析的觀察值,觀察列子集(Row)。select()
:選要分析的欄位,欄位子集(Column)。mutate()
:增加新欄位。summarise()
:計算統計值。group_by()
:依照類別變數分組,常搭配 summarise() 函數。arrange()
:依照變數排序觀測值。rename()
:欄位重新命名。%>%
:the “pipe” operator 連結上數函式,將所有函式計算串在一起執行。參考: